Pensamiento Visual Iterativo: Autocorrección Espacial en Modelos Visión-Lenguaje
Descubre cómo IVT enseña a modelos visión-lenguaje a corregir sus errores espaciales: precisión 82% y degradación 5x menor.
Descubre cómo IVT enseña a modelos visión-lenguaje a corregir sus errores espaciales: precisión 82% y degradación 5x menor.